<?php

/**
* Project:     MagpieRSS: a simple RSS integration tool
* File:        rss_parse.inc  - parse an RSS or Atom feed
*               return as a simple object.
*
* Handles RSS 0.9x, RSS 2.0, RSS 1.0, Atom 0.3, and Atom 1.0
*
* The lastest version of MagpieRSS can be obtained from:
* http://magpierss.sourceforge.net
*
* For questions, help, comments, discussion, etc., please join the
* Magpie mailing list:
* magpierss-general@lists.sourceforge.net
*
* @author           Kellan Elliott-McCrea <kellan@protest.net>
* @version          0.8
* @license          GPL
*
*/

define('RSS''RSS');
define('ATOM''Atom');

require_once (
MAGPIE_DIR 'rss_utils.inc');

/**
* Hybrid parser, and object, takes RSS as a string and returns a simple object.
*
* see: rss_fetch.inc for a simpler interface with integrated caching support
*
*/
class MagpieRSS {
    var 
$parser;
    
    var 
$current_item   = array();  // item currently being parsed
    
var $items          = array();  // collection of parsed items
    
var $channel        = array();  // hash of channel fields
    
var $textinput      = array();
    var 
$image          = array();
    var 
$feed_type;
    var 
$feed_version;
    var 
$encoding       '';       // output encoding of parsed rss
    
    
var $_source_encoding '';     // only set if we have to parse xml prolog
    
    
var $ERROR "";
    var 
$WARNING "";
    
    
// define some constants
    
    
var $_ATOM_CONTENT_CONSTRUCTS = array(
        
'content''summary''title'/* common */
    
'info''tagline''copyright'/* Atom 0.3 */
        
'rights''subtitle'/* Atom 1.0 */
    
);
    var 
$_XHTML_CONTENT_CONSTRUCTS = array('body''div');
    var 
$_KNOWN_ENCODINGS    = array('UTF-8''US-ASCII''ISO-8859-1');

    
// parser variables, useless if you're not a parser, treat as private
    
var $stack              = array(); // parser stack
    
var $inchannel          false;
    var 
$initem             false;
    
    var 
$incontent          = array(); // non-empty if in namespaced XML content field
    
var $exclude_top        false// true when Atom 1.0 type="xhtml"

    
var $intextinput        false;
    var 
$inimage            false;
    var 
$current_namespace  false;
    
    
/**
     *  Set up XML parser, parse source, and return populated RSS object..
     *   
     *  @param string $source           string containing the RSS to be parsed
     *
     *  NOTE:  Probably a good idea to leave the encoding options alone unless
     *         you know what you're doing as PHP's character set support is
     *         a little weird.
     *
     *  NOTE:  A lot of this is unnecessary but harmless with PHP5 
     *
     *
     *  @param string $output_encoding  output the parsed RSS in this character 
     *                                  set defaults to ISO-8859-1 as this is PHP's
     *                                  default.
     *
     *                                  NOTE: might be changed to UTF-8 in future
     *                                  versions.
     *                               
     *  @param string $input_encoding   the character set of the incoming RSS source. 
     *                                  Leave blank and Magpie will try to figure it
     *                                  out.
     *                                  
     *                                   
     *  @param bool   $detect_encoding  if false Magpie won't attempt to detect
     *                                  source encoding. (caveat emptor)
     *
     */
    
function MagpieRSS ($source$output_encoding='ISO-8859-1'
                        
$input_encoding=null$detect_encoding=true
    {   
        
# if PHP xml isn't compiled in, die
        #
        
if (!function_exists('xml_parser_create')) {
            
$this->error"Failed to load PHP's XML Extension. " 
                          
"http://www.php.net/manual/en/ref.xml.php",
                           
E_USER_ERROR );
        }
        
        list(
$parser$source) = $this->create_parser($source
                
$output_encoding$input_encoding$detect_encoding);
        
        
        if (!
is_resource($parser)) {
            
$this->error"Failed to create an instance of PHP's XML parser. " .
                          
"http://www.php.net/manual/en/ref.xml.php",
                          
E_USER_ERROR );
        }

        
        
$this->parser $parser;
        
        
# pass in parser, and a reference to this object
        # setup handlers
        #
        
xml_set_object$this->parser$this );
        
xml_set_element_handler($this->parser
                
'feed_start_element''feed_end_element' );
                        
        
xml_set_character_data_handler$this->parser'feed_cdata' ); 
    
        
$status xml_parse$this->parser$source );
        
        if (! 
$status ) {
            
$errorcode xml_get_error_code$this->parser );
            if ( 
$errorcode != XML_ERROR_NONE ) {
                
$xml_error xml_error_string$errorcode );
                
$error_line xml_get_current_line_number($this->parser);
                
$error_col xml_get_current_column_number($this->parser);
                
$errormsg "$xml_error at line $error_line, column $error_col";

                
$this->error$errormsg );
            }
        }
        
        
xml_parser_free$this->parser );

        
$this->normalize();
    }
    
    function 
feed_start_element($p$element, &$attrs) {
        
$el $element strtolower($element);
        
$attrs array_change_key_case($attrsCASE_LOWER);
        
        
// check for a namespace, and split if found
        // Don't munge content tags
        
if ( empty($this->incontent) ) {   
                
$ns false;
                if ( 
strpos$element':' ) ) {
                   list(
$ns$el) = split':'$element2); 
                }
                if ( 
$ns and $ns != 'rdf' ) {
                   
$this->current_namespace $ns;
               }
          }

        
# if feed type isn't set, then this is first element of feed
        # identify feed from root element
        #
        
if (!isset($this->feed_type) ) {
            if ( 
$el == 'rdf' ) {
                
$this->feed_type RSS;
                
$this->feed_version '1.0';
            }
            elseif ( 
$el == 'rss' ) {
                
$this->feed_type RSS;
                
$this->feed_version $attrs['version'];
            }
            elseif ( 
$el == 'feed' ) {
                
$this->feed_type ATOM;
                    if (
$attrs['xmlns'] == 'http://www.w3.org/2005/Atom') { // Atom 1.0
                        
$this->feed_version '1.0';
                    }
                    else { 
// Atom 0.3, probably.
                        
$this->feed_version $attrs['version'];
                    }
                
$this->inchannel true;
            }
            return;
        }
    
        
// if we're inside a namespaced content construct, treat tags as text
        
if ( !empty($this->incontent) ) 
        {
                if ((
count($this->incontent) > 1) or !$this->exclude_top) {
                      
// if tags are inlined, then flatten
                      
$attrs_str join(' '
                          
array_map('map_attrs'
                          
array_keys($attrs), 
                          
array_values($attrs) ) 
                        );
                    
                        if (
strlen($attrs_str) > 0) { $attrs_str ' '.$attrs_str; }
        
                        
$this->append_content"<{$element}{$attrs_str}>"  );
                }
                
array_push($this->incontent$el); // stack for parsing content XML
        

        
        elseif ( 
$el == 'channel' )  {
            
$this->inchannel true;
        }
    
        elseif (
$el == 'item' or $el == 'entry' 
        {
            
$this->initem true;
            if ( isset(
$attrs['rdf:about']) ) {
                
$this->current_item['about'] = $attrs['rdf:about']; 
            }
        }

        
// if we're in the default namespace of an RSS feed,
        //  record textinput or image fields
        
elseif ( 
            
$this->feed_type == RSS and 
            
$this->current_namespace == '' and 
            
$el == 'textinput' 
        {
            
$this->intextinput true;
        }
        
        elseif (
            
$this->feed_type == RSS and 
            
$this->current_namespace == '' and 
            
$el == 'image' 
        {
            
$this->inimage true;
        }
        
        
// set stack[0] to current element
        
else {
              
// Atom support many links per containing element.
              // Magpie treats link elements of type rel='alternate'
              // as being equivalent to RSS's simple link element.

              
$atom_link false;
              if (
$this->feed_type == ATOM and $el == 'link') {
                    
$atom_link true;
                    if (isset(
$attrs['rel']) and $attrs['rel'] != 'alternate') {
                          
$el $el "_" $attrs['rel'];  // pseudo-element names for Atom link elements
                    
}
              }
              
# handle atom content constructs
              
elseif ( $this->feed_type == ATOM and in_array($el$this->_ATOM_CONTENT_CONSTRUCTS) )
              {
                    
// avoid clashing w/ RSS mod_content
                    
if ($el == 'content' ) {
                          
$el 'atom_content';
                    }

                    
// assume that everything accepts namespaced XML
                    // (that will pass through some non-validating feeds;
                    // but so what? this isn't a validating parser)
                    
$this->incontent = array();
                    
array_push($this->incontent$el); // start a stack

                    
if ( isset($attrs['type']) and trim(strtolower($attrs['type']))=='xhtml') {
                        
$this->exclude_top true;
                    } else {
                        
$this->exclude_top false;
                    }
              }
              
# Handle inline XHTML body elements --CWJ
              
elseif (($this->current_namespace=='xhtml' or 
                        (isset(
$attrs['xmlns']) and $attrs['xmlns'] == 'http://www.w3.org/1999/xhtml'))
                      and 
in_array($el$this->_XHTML_CONTENT_CONSTRUCTS) )
              {
                    
$this->current_namespace 'xhtml';
                    
$this->incontent = array();
                    
array_push($this->incontent$el); // start a stack
                    
$this->exclude_top false;
              }

              
array_unshift($this->stack$el);
              
$elpath join('_'array_reverse($this->stack));
        
              
$n $this->element_count($elpath);
              
$this->element_count($elpath$n+1);
        
              if (
$n 0) {
                  
array_shift($this->stack);
                  
array_unshift($this->stack$el.'#'.($n+1));
                  
$elpath join('_'array_reverse($this->stack));
              }

              
// this makes the baby Jesus cry, but we can't do it in normalize()
              // because we've made the element name for Atom links unpredictable
              // by tacking on the relation to the end. -CWJ
              
if ($atom_link and isset($attrs['href'])) {
                    
$this->append($elpath$attrs['href']);
              }
        
              
// add attributes
              
if (count($attrs) > 0) {
                    
$this->append($elpath.'@'join(','array_keys($attrs)));
                    foreach (
$attrs as $attr => $value) {
                         
$this->append($elpath.'@'.$attr$value);
                    }
              }
       }
    }
    

    
    function 
feed_cdata ($p$text) {
        
        if (
$this->incontent) {
            
$this->append_content$text );
        }
        else {
            
$current_el join('_'array_reverse($this->stack));
            
$this->append($current_el$text);
        }
    }
    
    function 
feed_end_element ($p$el) {
        
$el strtolower($el);

        if ( 
$this->incontent ) {
        
$opener array_pop($this->incontent);

        
// Don't get bamboozled by namespace voodoo
        
if (strpos($el':')) { list($ns$closer) = split(':'$el); }
        else { 
$ns false$closer $el; }

        
// Don't get bamboozled by our munging of <atom:content>, either
        
if ($this->feed_type == ATOM and $closer == 'content') {
            
$closer 'atom_content';
        }

        
// balance tags properly
        // note:  i don't think this is actually neccessary
        
if ($opener != $closer) {
            
array_push($this->incontent$opener);
            
$this->append_content("<$el />");
        } elseif (
$this->incontent) { // are we in the content construct still?
            
if ((count($this->incontent) > 1) or !$this->exclude_top) {
                
$this->append_content("</$el>");
            }
        } else { 
// shift the opening of the content construct off the normal stack
            
array_shift$this->stack );
        }
        }
        elseif ( 
$el == 'item' or $el == 'entry' 
        {
            
$this->items[] = $this->current_item;
            
$this->current_item = array();
            
$this->initem false;

        
$this->current_category 0;
        }
       elseif (
$this->feed_type == RSS and $this->current_namespace == '' and $el == 'textinput' 
        {
            
$this->intextinput false;
        }
        elseif (
$this->feed_type == RSS and $this->current_namespace == '' and $el == 'image' 
        {
            
$this->inimage false;
        }
        elseif (
$el == 'channel' or $el == 'feed' 
        {
            
$this->inchannel false;
        }
        else {
        
array_shift$this->stack );
        }
        
    if ( !
$this->incontent ) { // Don't munge the namespace after finishing with elements in namespaced content constructs -CWJ
        
$this->current_namespace false;
    }
    }
    
    function 
concat (&$str1$str2="") {
        if (!isset(
$str1) ) {
            
$str1="";
        }
        
$str1 .= $str2;
    }
    
    function 
append_content($text) {
    if ( 
$this->initem ) {
        if (
$this->current_namespace) {
            
$this->concat$this->current_item[$this->current_namespace][ reset($this->incontent) ], $text );
        } else {
            
$this->concat$this->current_itemreset($this->incontent) ], $text );
        }
    }
    elseif ( 
$this->inchannel ) {
        if (
$this->current_namespace) {
            
$this->concat$this->channel[$this->current_namespace][ reset($this->incontent) ], $text );
        } else {
            
$this->concat$this->channelreset($this->incontent) ], $text );
        }
    }
    }
    
    
// smart append - field and namespace aware
    
function append($el$text) {
        if (!
$el) {
            return;
        }
        if ( 
$this->current_namespace 
        {
           if ( 
$this->initem ) {
             
$real_element ""

             
$element_tree explode("_"$el); 
             
$real_element =& $this->current_item$this->current_namespace ]; 

             foreach (
$element_tree as $tree_element) { 
                 if (!
is_array($real_element)) { 
                     
$real_element = array(); 
                 } 

                 
$real_element =& $real_element[$tree_element]; 
             }
             
$this->concat(
                             
$real_element$text); 
    }
            elseif (
$this->inchannel) {
        
$this->concat(
            
$this->channel$this->current_namespace][ $el ], $text );
        }
            elseif (
$this->intextinput) {
                
$this->concat(
                    
$this->textinput$this->current_namespace][ $el ], $text );
            }
            elseif (
$this->inimage) {
                
$this->concat(
                    
$this->image$this->current_namespace ][ $el ], $text );
            }
        }
        else {
            if ( 
$this->initem && !is_array($this->current_item$el ])) {
        
$this->concat(
            
$this->current_item$el ], $text);
            }
            elseif (
$this->intextinput) {
                
$this->concat(
                    
$this->textinput$el ], $text );
            }
            elseif (
$this->inimage) {
                
$this->concat(
                    
$this->image$el ], $text );
            }
            elseif (
$this->inchannel) {
        
$this->concat(
            
$this->channel$el ], $text );
            }
            
        }
    }

    
// smart count - field and namespace aware
    
function element_count ($el$set NULL) {
        if (!
$el) {
            return;
        }
        if ( 
$this->current_namespace 
        {
            if ( 
$this->initem ) {
            if (!
is_null($set)) { $this->current_item$this->current_namespace ][ $el.'#' ] = $set; }
            
$ret = (isset($this->current_item$this->current_namespace ][ $el.'#' ]) ?
            
$this->current_item$this->current_namespace ][ $el.'#' ] : 0);
            }
            elseif (
$this->inchannel) {
            if (!
is_null($set)) { $this->channel$this->current_namespace ][ $el.'#' ] = $set; }
            
$ret = (isset($this->channel$this->current_namespace][ $el.'#' ]) ?
            
$this->channel$this->current_namespace][ $el.'#' ] : 0);
        }
        }
        else {
            if ( 
$this->initem ) {
            if (!
is_null($set)) { $this->current_item$el.'#' ] = $set; }
            
$ret = (isset($this->current_item$el.'#' ]) ?
            
$this->current_item$el.'#' ] : 0);
            }
            elseif (
$this->inchannel) {
            if (!
is_null($set)) {$this->channel$el.'#' ] = $set; }
            
$ret = (isset($this->channel$el.'#' ]) ?
            
$this->channel$el.'#' ] : 0);
        }
        }
    return 
$ret;
    }

    function 
normalize_enclosure (&$source$from, &$dest$to$i) {
        
$id_from $this->element_id($from$i);
        
$id_to $this->element_id($to$i);
        if (isset(
$source["{$id_from}@"])) {
            foreach (
explode(','$source["{$id_from}@"]) as $attr) {
                if (
$from=='link_enclosure' and $attr=='href') { // from Atom
                    
$dest["{$id_to}@url"] = $source["{$id_from}@{$attr}"];
                    
$dest["{$id_to}"] = $source["{$id_from}@{$attr}"];
                }
                elseif (
$from=='enclosure' and $attr=='url') { // from RSS
                    
$dest["{$id_to}@href"] = $source["{$id_from}@{$attr}"];
                    
$dest["{$id_to}"] = $source["{$id_from}@{$attr}"];
                }
                else {
                    
$dest["{$id_to}@{$attr}"] = $source["{$id_from}@{$attr}"];
                }
            }
        }
    }

    function 
normalize_atom_person (&$source$person, &$dest$to$i) {
        
$id $this->element_id($person$i);
        
$id_to $this->element_id($to$i);

            
// Atom 0.3 <=> Atom 1.0
        
if ($this->feed_version >= 1.0) { $used 'uri'$norm 'url'; }
        else { 
$used 'url'$norm 'uri'; }

        if (isset(
$source["{$id}_{$used}"])) {
            
$dest["{$id_to}_{$norm}"] = $source["{$id}_{$used}"];
        }

        
// Atom to RSS 2.0 and Dublin Core
        // RSS 2.0 person strings should be valid e-mail addresses if possible.
        
if (isset($source["{$id}_email"])) {
            
$rss_author $source["{$id}_email"];
        }
        if (isset(
$source["{$id}_name"])) {
            
$rss_author $source["{$id}_name"]
                . (isset(
$rss_author) ? " <$rss_author>" '');
        }
        if (isset(
$rss_author)) {
            
$source[$id] = $rss_author// goes to top-level author or contributor
        
$dest[$id_to] = $rss_author// goes to dc:creator or dc:contributor
        
}
    }

    
// Normalize Atom 1.0 and RSS 2.0 categories to Dublin Core...
    
function normalize_category (&$source$from, &$dest$to$i) {
        
$cat_id $this->element_id($from$i);
        
$dc_id $this->element_id($to$i);

        
// first normalize category elements: Atom 1.0 <=> RSS 2.0
        
if ( isset($source["{$cat_id}@term"]) ) { // category identifier
            
$source[$cat_id] = $source["{$cat_id}@term"];
        } elseif ( 
$this->feed_type == RSS ) {
            
$source["{$cat_id}@term"] = $source[$cat_id];
        }
&